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网 购 评 语 高 频 词 共 现 网 络 的 结构 特征 分 析 
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摘 要 : 网购 评语 是 消费 者 对 网 购 商 品 的 直接 反馈 ， 从 中 挖掘 有 价值 的 知识 有 助 于 为 商家 开展 精准 化 营销 和 个 性 化 推 
荐 服务 、 消 费 者 制定 购买 决策 等 提供 依据 。 监 于 此 ， 以 国内 大 型 综合 型 电 商 平台 上 服装 类 网 购 评语 为 研究 对 象 ， 对 评 
语 分 词 、 筛 选 高 频 词 ， 分 析 高 频 词 之 间 的 共 现 关系 ,构建 高 频 词 共 现 网 络 ， 分 析 得 出 网 络 评语 的 热点 词 多 个 结构 特征 
和 评语 网 络 中 少数 节点 对 网 络 的 运行 起 着 主导 的 作用 ， 为 网 购 评 语 挖 据 研 究 领 域 提 供 了 按照 网 购 评 语 高 频 词 共 现 网 络 
的 结构 特性 对 销量 的 交互 影响 进行 研究 的 思路 。 
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Analysis of structure characteristics of high frequency word co-occurrence network of online 
shopping reviews 
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Abstract: Consumers' online shopping reviews are consumers' feedback to online shopping. Mining valuable knowledge from 


massive online shopping reviews will not only provide safeguard for businesses to carry out precision marketing and 
personalized recommendation services, but also is good for consumers to make purchase decisions. Besides, management 


departments can use it to establish regulatory strategy. In this paper, the clothing online shopping comments on China's large 


的 = integrated electronic business platform is reviewed as the object of study, making a participle of the comments, Screening high 
二 - frequency words, analyzing of co-occurrence relationship between the high frequency words in order to structure high frequency 
| word co-occurrence network, a number of structural features for the network comments hot words is shown by analyzing the 
network and in the comment network, a few nodes play a dominant role in the operation of the network. On the basis of the 
conclusion, this research also provides the study suggestion on the interaction effects of the structure characteristics of the high 
frequency word co-occurrence network on the Sales volume. 
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企业 、 监 管 部 门 而 言 ， 是 一 个 极其 繁琐 的 过 程 。 浏 览 评语 的 

的 主要 想 了 解 商 品 某 一 具体 属性 的 信息 ， 如 外 观 、 质 量 、 服 务 

互联 网 的 极速 发 展 ， 现 代 信息 化 的 迅速 普及 ， 使 得 网 络 购 ”态度 等 。 各 大 电子 商务 网 站 的 评论 功能 ， 给 了 消费 者 了 解 商品 
沟 成 为 高 效 快捷 的 购物 方式 ， 广 泛 影 响 着 人 们 的 日 常 实际 情况 的 信息 渠道 和 平台 ， 其 及 时 、 便 捷 、 互 动 的 特性 满足 
什 。 随 着 网 上 购物 人 数 的 与 日 俱 增 ， 在 线 商 品评 论 的 数量 不 断 ” 了 顾客 的 信息 需求 。 所 以 如 何 快速 的 从 繁琐 大 量 的 信息 中 提取 
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曾 加 ， 洪 在 消费 者 越 来 越 难 从 中 发 现 有 助 于 制定 购买 决策 的 信 出 对 客户 、 商 家 、 监 管 部 门 有 价值 的 信息 就 显得 至 关 重 要 。 

息 巾 。 同 时 每 个 消费 者 在 评论 商品 的 时 候 ， 由 于 用 语 习惯 的 不 网 购 评 语 挖掘 相关 的 文献 有 很 多 ， 主 要 集中 在 三 个 方面 
同 ， 会 导致 评论 的 无 组 织 性 和 非 结构 化 。 并 且 每 条 评语 对 商品 a) 评 语 的 真实 性 与 有 用 性 忆 3。 如 庆 成 林 等 人 所 运用 实证 看 
的 评价 涉及 到 不 同方 面 ， 顾 客 想 制定 购买 决策 、 电 商 企 业 想 担 完 方 法 ， 探 讨 了 在 线 商品 评论 有 用 性 的 影响 因素 以 及 各 因素 之 
高 消费 业绩 、 监 管 部 门 监督 管理 都 需要 从 大 量 评语 中 寻找 自己 。” 间 的 作用 机 制 ， 姜 独 等 人 外 认为 评论 质量 的 良 劳 不 齐 严 重 干扰 


的 关注 点 ， 这 将 会 十 分 的 不 易 。 直 接 浏览 商品 的 评论 信息 不 仅 。 ”了 需求 挖掘 的 准确 性 和 可 信 性 ， 提 出 一 种 基于 复杂 网 络 的 评论 
耗 时 耗 力 ， 也 很 难 形成 一 个 客观 整体 的 印象 ， 对 于 顾客 、 电 商 ”有 用 性 分 析 方法 64， 消费 者 发 表 在 线 评论 的 意愿 和 参与 动机 
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等 行为 影响 因素 四， 如 小 额 经 济 回 报 等 不 同方 式 的 激励 措施 ， 


都 鼓励 消费 者 发 表 在 线 产 品评 论 ， 并 可 能 作出 偏离 真实 性 的 评 


论 包 ， 甚 至 出 现 虚假 评论 信息 ， 使 得 商品 评论 信息 


可 信 度 受到 


息 
严重 影响 00。 这 类 文献 主要 探讨 评论 是 否 真实 反映 了 消费 者 的 


实意 愿 以 及 评论 的 质量 ， 即 评价 的 有 效 性 。 
b) 评语 对 购买 决策 或 销量 的 影响 (03-31。 如 王 君 瑞 等 人 31 研 


究 了 热门 品牌 产品 的 在 线 评 论 对 非 热门 品牌 产品 销量 是 否 具有 


图 书 的 销量 有 显著 的 


IN 
李 桃 迎 ， 等 : 网 购 评语 高 频 词 共 现 


决定 是 否 构 成 词 ， 它 能 较 好 地 反映 
可 以 利用 现 有 中 文 分 析 软 件 分 词 和 


中 文 词法 分 析 系统 ICTCLAS、 武 汉 大 学 沈阳 教授 


CM 等 。 

分 词 后 得 到 评论 的 词 c 和 对 应 
六 个 评论 中 出 现 的 概率 p=niN， 
率 ) 从 大 到 小 排列 ， 从 而 保证 Vi</ 


李 宏 等 人 HI 研究 了 负面 在 线 评 论 质量 、 消 费 者 卷 入 度 和 

个 变量 对 消费 者 满意 度 和 

中 通过 当当 网 图 书 的 评论 数据 进行 实证 分 析 ， 发 现 线 上 消费 者 
图 影响 ， 也 有 人 分 析 初 次 评论 与 追加 

评论 对 消费 者 购买 决策 的 影响 C。 这 类 文献 主要 探讨 评论 的 内 


购买 选择 的 影响 ， 获 诗 阳 等 人 


容 是 否 对 商品 的 销量 有 影响 及 影响 的 不 同 侧面 。 


c) 评语 的 情感 分 析 P4-29。 如 李 一 军 和 叶 强 等 人 P423 分 析 了 


商品 在 线 评论 情感 倾向 与 商品 销售 收入 的 关系 ， 如 果 获 取 的 评 
论 内 容 不 符合 分 析 的 要 求 ， 那 么 情感 倾向 性 
有 很 大 的 误差 R71, 王 洪 伟 等 人 29 在 考虑 人 们 表达 习惯 和 语 料 粒 
种 基于 句子 情感 的 段落 情感 极 性 分 类 方法 。 
王 伟 等 人 的 认为 在 同类 商品 推荐 中 粗 粒 度 识别 评论 情感 极 ! 
粒度 识别 每 个 商品 特征 的 情感 极 性 。 这 类 文献 主要 集中 在 主 
性 内 容 识 别 、 襄 贬 情 感 分 类 以 及 在 线 评论 的 经 济 价值 挖掘 等 


度 的 基础 上 ,提出 


ASS 


妆 


— 


个 方 日 


己 有 的 研究 主要 集中 在 消费 者 受 评价 时 效 性 、 激 励 措施 、 


的 分 析 结 果 也 将 会 


由 并 


多 次 评论 、 


语言 特征 等 外 界 环境 影响 ， 或 产品 销量 的 影响 ， 以 


及 评语 的 正 、 


负面 倾向 等 内 容 进行 讨论 分 析 ， 鲜 有 消费 者 对 商 
品 的 关注 热点 、 评 论语 之 间 的 关联 和 共 现 特征 等 方面 的 研究 。 
本 文 在 总 结 现 有 网 购 评语 挖掘 的 基础 上 ， 试 图 通过 复杂 网 络 理 


1.2 ”高 频 词 共 现 矩阵 和 共 现 网 络 

KK 个 衣服 评论 语 高 频 词 中 ， 统 
所 及 个 评论 语 中 
现 关系 借用 
联 程度 。 计 算 公 式 如 下 : 


L, =log, 


tk 现 的 次 数 为 eye 任意 两 个 高 频 词 之 间 的 共 
言 乱 论 中 的 互信 息 B3 来 表示 , 描述 两 个 词 之 间 的 关 


Xiy 合 作 期 


八 : | 
络 的 结构 特征 分 析 
成 词 的 可 信 度 B"30。 同 时 也 
词 频 统计 ， 如 中 科 院 开发 的 
发 的 ROST 


的 词 频数 n;， 该 词 在 所 有 的 
将 这 些 词 按照 词 频数 (或 概 


时 n 它 n;〔 等 价 于 pizpj;)。 设 


置 选取 的 高 频 词 数 K， 选 取 前 天 个 词 为 高 频 词 。 


计 任 意 两 个 高 频 词 c、c/ 在 


PP, 
() 
PP 


了 


其 中 : Pij 代 表 ci 和 oj 同时 出 现 的 概率 , Pi 表示 c 出 现 的 概率 ， 


已 表示 o 出现 的 概率 。 分 析 可 得 ， 


结果 越 大 , ci; 和 cj 的 共 现 关 


联 程度 也 越 大 。 由 (7,)www 构成 的 矩阵 即 为 高 频 词 共 现 矩阵 ( 考 


虑 到 对 称 关系 五 产 记 ， 也 可 表示 为 
和 矩阵 )。 

之 所 以 选择 互信 息 而 不 是 选择 
可 以 用 一 个 例子 来 解释 。 假 设 评论 
c2 的 词 频数 为 m=8000 〈 即 Pi=0.8 


SS 


N= 


CQ 六 


高 频 词 共 现 上 三 角 或 下 三 角 


高 频 词 共 现 次 数 ， 主 要 原因 
语 有 10000 条 ， 高 频 词 ch、 
)，712=7000( 即 P2=0.7)，cl1、 


网 的 次 数 为 5000( 即 P12=0.5)， 互 信息 为 1.2=-0.36; 高 频 


词 c3、c4 的 词 频数 为 n3=5000( 即 Pi=0.5),n4=5000( 即 P2=0.5 )， 
c3、c4 共 现 的 次 数 为 4500( 即 P34=0.45)， 互 信息 为 13,4=0.85。 


论 ， 找 出 网 购 消费 者 的 关注 热点 ， 即 通过 网 购 消 费 者 的 评语 ， 
找 出 其 中 的 高 频 词 及 高 频 词 之 间 的 共 现 网 络 ， 并 对 该 网 络 的 结 


构 特 性 进行 探讨 。 


1 ”中 文 网 购 评语 高 频 词 共 现 网 络 


本 文 所 使 用 


的 评语 数据 取 自 全 球 前 十 大 互联 网 公司 之 一 的 


中 国 大 型 综 品 型 商 平台 ? 


该 平台 2014-2015 年 累计 销售 额 近 


6 亿 元 。 销 售 产品 种 类 近 3150 万 种 ,网 购 评语 数据 也 非常 庞大 。 
本 文 仅 选 取 该 网 站 销售 的 543 件 衣服 在 2014-2015 年 共计 59730 
条 的 评论 数据 进行 分 析 。 依 据 该 59730 条 评论 数据 ， 构 建 网 购 


评语 的 高 频 词 共 现 网 络 。 
1.1 中 文 分 词 和 高 频 词 


分 词 是 数据 预 处 理 的 关键 步骤 ， 是 得 到 评语 信息 并 剔除 相 
关 “ 的 ”“ 得 ”及 各 类 标点 符号 后 的 第 一 个 过 程 。 常 用 的 关于 分 
词 的 方法 有 三 种 ， 即 依赖 于 字符 串 匹 配 的 分 词 方法 、 基 于 统计 


的 分 词 方法 、 基 于 知识 理解 的 分 词 方法 。 


考虑 到 数据 较 大 ， 本 文采 用 基于 统计 的 分 词 方法 ， 主 要 是 


在 上 下 文中 ， 分 析 相 邻 的 字 
越 多 构成 词 的 可 能 就 越 大 。 


tk 同 出 现 的 次 数 ， 共 同 出 现 的 次 数 
也 就 是 说 字 与 字 相 邻 出 现 的 频率 来 


频 词 之 间 的 共 现 关系 时 ， 也 可 以 借 
代 本 文中 的 互信 息 。 
针对 共 现 和 矩阵， 按照 互信 息 从 


虽然 c、c4 的 共 现 次 数 较 小 , 但 是 相对 各 高 频 词 而 言 ，cj、c4 几 
乎 都 是 同时 出 现 , 因此 ，cs、c4 更 应 该 选 作 共 现 关系 。 


在 表示 高 
信 度 来 取 


用 关联 规则 中 的 


大 到 小 排列 ， 设 置 高 频 词 共 


现 关 系数 EE， 选取 前 EE 个 高 频 词 
到 的 高 频 词 为 节点 ， 形 成 的 网 络 即 
例如 ， 设 置 高 频 词 数 K=200， 
k 现 关系 数 5=100， 得 到 的 高 频 词 
的 大 小 表示 度 的 大 小 。 


图 1 K=200，E=100 的 高 频 词 共 现 


tk 现 关 系 为 边 ， 这 条 边 涉及 


为 高 频 词 共 现 网 络 。 
构建 高 频 词 共 现 网 络 时 选取 
k 现 网 络 如 图 1 所 示 ， 节 点 
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图 1 可 知 ， 共 现 网 络 的 边 数 即 为 设置 的 的 数目 ， 而 这 。。 函数 PC 描述 节点 的 度 分 布 特性 ,前 者 的 含义 为 复杂 网 络 中 
些 边 涉及 的 节点 分 别 是 来 自 200 个 高 频 词 ， 即 只 有 互信 息 排名 为 大 的 节点 数 占 总 节点 数 的 比例 ， 后 者 的 含义 为 复杂 网 络 中 
前 100 的 节点 对 ， 才 会 成 为 高 频 词 共 现 网 络 的 节点 。 大 于 等 于 的 节点 数 占 总 节点 数 的 比例 64。 实 证 研究 表明 ， 
co 量 现 实 世界 的 复杂 网 络 表现 为 三 种 类 型 的 节点 度 分 布 特性 
eA 无 标 度 特性 ， 回 宽 标 度 特性 ， 回 单 标 度 特性 。 本 文采 用 累积 
2.1 “中文 分 词 和 高 频 词 分 布 函 数 描述 网 购 衣服 评语 高 频 词 共 现 网 络 的 度 分 布 特性 ， 
网 购 评语 高 频 词 共 现 网 络 的 拓扑 结构 如 图 1 所 示 。 在 网 络 。 “1 的 网 购 衣服 评语 高 频 词 共 现 网 络 的 累积 度 分 布 函 数 如 图 2 所 


现 池 回头 洱 油 


中 ， 一 个 节点 代表 一 个 网 购 衣 服 评语 高 频 词 ， 一 条 边 表示 两 个 ” 示 。 
网 购 衣服 评语 高 频 词 之 间 同 时 出 现在 一 个 评语 的 共 现 关系 。 节 
点 的 大 小 表示 该 节点 的 度 (degree)， 即 连接 到 该 节点 的 邻居 节 a Te 
点 的 数量 。 一 个 节点 的 度 是 衡量 其 在 网 络 中 重要 程度 的 关键 性 To 
指标 之 一 。 有 着 高 连接 度 的 节点 常常 被 称 为 高 连通 度 节点 或 ] AN 
hub 节点 。 不 失 一 般 性 ， 假 定 网 购 衣服 评语 高 频 词 共 现 网 络 中 
的 节点 数 为 Y， 根 据 高 频 词 共 现 网 络 的 共 现 关系 构建 一 个 二 元 
邻接 矩阵 A(N,N)。 如 果 高 频 词 i 到 高 频 词 j 存在 共 现 关系 ， 算 | 
阵 A(N,N) 的 元 素 wy 取 值 为 1, 否则 取 值 为 0。 对称 矩阵 A(N,N) = \ 
用 来 计算 结构 特性 ， 如 最 短路 径 程度 、 网 络 密度 、 度 分 布 、 群 | 
聚 系数 、 社 区 结构 、 富 人 俱乐部 、 匹 配 形式 等 。 | 
人 图 2 K=200，E=100 网 购 评语 高 频 词 共 现 网 络 的 黑 积 度 分 
许多 现实 世界 的 网 络 表现 出 小 世界 网 络 的 结构 特性 ， 即 与 
相同 规模 的 随机 网 络 相 比 ， 有 着 相同 水 平 的 平均 路 径 长 度 和 更 由 于 图 1 为 K=200 且 6=100 的 高 频 词 共 现 网 络 ， 避 免 网 
高 水 平 的 聚集 系数 9。 网 络 的 平均 路 径 长 度 是 网 络 中 所 有 节点 。” 络 不 具有 代表 性 ， 同 时 计算 =500，E=200 的 高 频 词 共 现 网 络 
对 之 间 最 短路 径 长 度 的 均值 ， 即 (图 3)、K=1000, =500 的 高 频 词 共 现 网 络 (图 4) 的 累积 度 
六 Ds (2) 分布 函数 如 图 5 所 示 。 
N(N-1) 


其 中 : di 是 高 频 词 节 点 i 到 高 频 词 节点 j 所 经 历 的 边 的 数目 。 网 
络 的 聚集 系数 是 网 络 中 所 有 节点 聚集 系数 的 均值 ， 即 
1 N, 


ny G) 
其 中 : 右 是 节点 i 的 度 ，Ni 是 右 个 邻居 之 间 实 际 存 在 的 边 数 。 

根据 以 上 定义 ， 图 1 中 的 网 购 衣 服 评语 高 频 词 共 现 网 络 中 
节点 数 入 为 18, 计算 得 该 网 络 的 平均 路 径 长 度 为 1.34, 聚集 系 
数 为 0.84。 与 相对 应 的 随机 网 络 相 比 ， 网 购 衣 服 评语 高 频 词 共 
现 网 络 有 着 相同 水 平 的 平均 路 径 长 度 和 更 高 水 平 的 群 聚 系数 ， 
表现 出 明显 的 小 世界 现象 。 此 分 析 结 果 表 明 ， 网 购 衣 服 评语 高 
频 词 共 现 网 络 中 任何 两 个 网 购 衣服 评语 高 频 词 之 间 的 共 现 关 系 
至 多 平均 需要 一 次 过 度 ， 一 半 以 上 的 高 频 词 之 间 有 着 直接 的 共 
现 关 系 ， 网 购 高 频 词 与 高 频 词 之 间 有 明显 的 共 现 关系 。 

根据 网 购 评 语 高 频 词 共 现 网 络 的 小 世界 特性 ， 可 知 任何 两 
个 高 频 词 有 着 直接 或 间接 的 共 现 关 系 。 结 合 图 1 的 例子 就 可 以 
为 消费 者 的 购买 决策 提供 一 定 的 建议 ， 如 消费 者 选择 “舒服 ” 
这 个 高 频 词 进行 网 上 购物 的 检索 ， 平 台 应 自动 搜索 与 “舒服 ” 
# 现 的 高 频 词 “好 看 ”“ 人 合身” 等 进行 个 性 化 推荐 。 
2.3 ”网购 评语 高 频 词 共 现 网 络 的 度 分 布 特性 

网 络 节点 的 度 分 布 特性 是 描述 复杂 网 络 结构 特性 世 
标 之 一 。 现 有 文献 中 常用 节点 度 的 分 布 函数 P( 有 ) 或 累积 度 分 布 


| 内 
nn 
本 
中 
C 


图 4 K=1000，E=500 的 高 频 词 共 现 网 络 
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等 : 


网 购 评语 节点 形成 了 全 连通 图 。 


人 俱乐部 现象 说 明 ， 处 了 


一 中 


ChinaX 
网 购 评语 高 频 词 共 现 


iv 合 
网 络 的 结构 期 于 


评语 节点 的 关注 程度 及 高 ， 这 些 方 


网 购 评语 高 频 词 共 现 网 络 的 富 

F 俱乐部 中 的 评语 是 该 网 络 的 核心 ， 控 

所 着 整个 网 络 上 的 评语 节点 构成 。 因此 , 网 购 消费 者 对 这 些 hub 
看 对 吸 引 消费 者 购买 起 着 至 


录用 稿 
累计 度 分 布 
(a) 图 3 中 网 络 的 累积 度 分 布 
累计 度 分 布 
(b) 图 4 中 网 络 的 累积 度 分 布 
图 5 累积 度 分 布 
图 2、5 可 以 看 出 , 网 购 衣 服 评语 高 频 词 共 现 网 络 的 节点 
越 多 ， 随 着 度 的 增 大 ， 累 积 度 分 布 函 数 曲线 表现 出 开始 快速 
衰减 、 后 期 缓慢 衰减 的 情形 ， 说 明 该 网 络 的 节点 度 上 具有 无 标 度 
特性 。 无 标 度 特 性 表现 为 网 络 中 少数 节点 的 连接 度 较 大 (拥有 


极其 多 的 连接 ), 对 网 络 的 运行 起 着 3 


连接 度 较 小 (只 有 很 少 
网 购 衣 服 评语 高 频 词 共 


量 的 连接 )。 
现 网 络 正 好 符合 这 一 特点 ， 网 络 中 


质量 、 上 颜色、 样式 、 大 小 、 
的 连接 ， 但 是 其 他 节点 的 连 


面料 等 节点 为 关键 节点 ， 具 有 大 量 
接 较 少 。 


导 的 作 /) 


用 , 而 大 多 数 节 点 


2.4 网 购 评语 高 频 词 共 现 网 络 的 富 人 俱乐部 现象 


富 人 俱乐部 现象 是 指 网 络 
之 间 有 着 紧密 的 连接 ， 进 而 ] 
以 


i 


形成 了 网 络 


P 连 


接 度 较 大 的 节点 (Hub 节点 ) 
的 一 个 核心 轩 
| 富 人 俱 乐 部 系数 (有 D 来 度量 B51。 用 到: 表示 网 络 中 度 大 于 


队 ， 可 


的 节点 之 间 的 连接 数量 ， 富 人 


HD= 


ps 


N. (NN.. -1) 


中 乐 部 系数 定义 为 


(4) 


其 中 : N,, ( N,, -1)/2 表示 度 大 于 的 节点 之 间 最 大 可 能 的 连接 


数量 。 网 购 评语 高 频 词 共 现 网 络 的 富 人 俱乐部 系数 如 图 6 所 示 ， 


6 中 的 (a) (b)。 


可 以 看 


着 比 其 他 低 连 接 度 节点 更 加 紧密 
以 看 出 , 度 大 于 10 的 


图 1、3 对 应 的 富 人 俱乐部 系数 如 图 

出 ， 该 系数 随 着 节点 度 上 的 增 大 而 增 大 ， 意 味 着 网 购 评 语 高 频 
词 共 现 网 络 中 hub 评语 之 间 有 

的 连接 ,形成 了 一 个 富 人 俱乐部 。 同 时 可 


关 重 要 的 作用 。 
富 人 俱乐部 系数 
了 
和 
Fi T T T 
0 2 4 6 8 10 12 14 
k 
(9) 
宫 人 俱乐部 系数 
2 要 二 人 
sd 
El 
EE 
和 
注 
| 
= T T 
0 5 10 15 20 
k 
(b) 
图 6 富 人 俱乐部 系数 


2.5 ”匹配 形式 


匹配 形式 描述 了 网 络 的 节点 度 与 其 邻居 
统计 上 分 析 网 络 的 匹配 形式 包括 两 个 步骤 。 


[4] 。 


点 工 的 邻 


k,( 


其 中 : Ni 为 节点 i 的 邻居 集合 。 然 后 ， 对 具 


的 邻 


大平 均 度 进行 统计 平均 ， 即 


居 平 均 度 如 式 (5〉 所 示 。 


节点 度 之 间 的 关系 
首先 ， 计 算 节 

EE G) 
有 相同 度 K 的 节点 


丽 ( 昌 = 二 ks(D， 其 中 以 


是 网 络 中 度 为 大 的 节点 的 数量 。 


如 果 无 (6 随 着 的 增 大 而 增 


大 ， 忆 意味 着 高 连通 度 的 节 点 偏 


好 与 其 


他 高 连通 度 的 节点 相连 ， 


则 网 络 表现 为 同 配 性 。 


否则 , 如 果 大。 


(k) 随 着 的 增 大 而 降低 ， 


则 网 络 表现 为 异 配 性 。 图 
点 度 与 其 邻居 节点 度 2 
首 大 而 减 小 ， 说 明 

析 结 果 表明 ， 在 网 购 评语 


| 


| 


高 频 词 


8 给 出 网 购 评语 高 频 词 共 现 
的 关系 。 


网 购 评 语 高 频 词 


网 络 的 节 
可 以 看 出 ， 天 ( 随 着 大 的 


tk 现 网 络 是 异 配 网 络 。 此 分 


篇 好 与 低 连 通 度 的 节点 相连 .这 进而 说 明 在 其 


5 现 网 络 中 ， 高 连通 度 的 节点 
生成 演化 过 程 中 ， 
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新 进入 网 络 中 的 评语 优先 与 那些 已 经 有 着 较 高 连接 度 的 个 体 建 


购 衣 服 评语 高 频 词 共 现 网 络 ， 之 后 对 其 结构 特性 进行 


.hinaXiv 合 作 期 十 
李 桃 迎 ， 等 : 网 购 评语 高 频 词 共 现 网 络 的 结构 特征 分 析 


立 连接 ， 现 有 评语 2 


间 共 现 关系 的 建立 也 偏好 于 发 生 在 高 连通 


度 评语 和 低 连通 度 评语 之 间 。 


邻居 平均 度 


mn 


k 


图 8 相同 度 k 的 节点 的 邻居 平均 度 天 (1 


2.6 网 购 评语 高 频 词 共 现 网 络 的 社区 结构 


社区 结构 是 指 网 络 中 存在 若干 群 ， 群 内 的 点 连接 紧密 ， 群 


到 J 


以 下 主要 结论 : 
a) 网 购 评语 高 频 词 共 现 网 络 是 一 个 小 世界 网 络 , 任何 两 个 


评语 之 间 的 共 现 关系 至 多 平均 需要 一 次 中 转 ， 一 半 以 上 的 评语 


高 频 词 之 间 有 着 直接 的 共 现 关系 ， 形 成 一 个 高 频 词 共 现 网 络 。 


网 络 中 少数 节点 的 连接 度 较 大 ,对 网 络 的 运行 起 着 主导 的 作用 ， 


b) 网 购 评语 高 频 词 共 现 网 络 的 度 分 布 


区 式 为 无 标 度 分 布 ， 


乐 部 中 的 高 频 词 是 网 购 评 语 高 频 词 


个 


而 大 多 数 节点 连接 度 较 小 ， 说 明 网 购 用 户 集中 关注 的 因素 较为 
集中 


c) 网 购 评 语 高 频 词 共 现 网 络 具有 富 人 俱乐部 现象 , 处 于 俱 
# 现 网 络 中 的 核心 词 ， 是 整 


它们 决定 了 网 购 消费 者 对 网 购 消 


语 网 络 上 的 高 专注 评语 ， 


费 的 关注 因素 。 


通 度 的 节点 偏好 与 低 连通 度 的 节点 相连 。 


d 


_ 


网 购 评语 高 频 词 共 现 网 络 具有 节点 度 的 异 配 特性 , 高 连 


e) 网 购 评语 高 频 词 共 现 网 络 不 存在 明显 的 社区 结构 ， 其 模 


之 间 的 点 联系 稀 朴 。 本 文 使 用 Girvan 和 Newman 定义 的 模块 性 ” ” 块 性 指标 Q 值 为 负 〈-0.082)， 这 意味 着 ， 网 购 评语 高 频 词 共 现 

函数 寻找 网 购 衣 服 评语 高 频 词 共 现 网 络 中 的 社区 结构 B9。 借 鉴 网 络 中 的 所 有 高 频 词 形 成 了 紧密 的 连接 。 

GN 算法 中 的 模块 性 指标 Q， 将 网 络 划分 为 c 个 子 网 ， 再 定义 此 外 ， 本 文 的 研究 方法 为 电子 商务 零售 企业 全 面 地 了 解 自 

一 个 对 称 矩 阵 (ey)exe, 其 中 ey 表示 网 络 中 连接 两 个 子 网 i 与 i 身 的 产品 和 用 户 对 产品 的 期 待 提 供 了 方法 文 持 ， 也 为 消费 者 于 

的 节点 的 边 占 整个 网 络 中 的 边 的 比例 。 和 矩阵 中 对 角 线 各 元 素 之 。 ”定购 买 策略 、 管 理 部 门 制定 监管 策略 提供 了 支持 。 接 下 来 ， 基 

和 Ve, 它 描述 网 络 之 中 连接 子 网 内 部 节点 之 间 的 边 占 整个 ee a SE 
村 营销 的 策略 进行 分 析 ， 探 讨 网 购 评语 高 频 词 共 现 网 络 结构 特 

性 与 消费 者 网 购 行为 、 商 品 销量 、 商 品 销售 热度 之 间 的 关系 ， 


加 


的 


其 中 : | 


台 忆 
El 


就 


为 
于 
社 


络 的 边 的 比例 。 pr ye , 它 : 


茧 述 与 第 i 个 子 网 中 的 节点 有 连接 


| 


边 占 整个 网 络 之 中 边 的 比例 。 从 而 ， 得 到 模块 性 函数 Q。 


2=>(e -Bb )=7-| 已 | 


i=l 


表示 矩阵 p? 中 的 各 元 素 之 和 。 


如 果子 网 划分 效果 越 佳 ，Q 值 一 般 较 大 。 但 是 ，Q 永远 不 


超过 1，Q 越 靠近 1， 则 表明 子 网 的 结构 越 容易 明显 地 辨别 。 
通常 在 实际 网 络 中 , Q 的 实际 值 常常 介 于 0.3 与 0.7 之 间 。 根 
据 该 定义 ， 可 以 得 知 Q 值 是 可 以 为 负 的 。 当 子 网 结构 内 部 边 所 


比例 小 于 任意 连接 时 边 所 占 比 例 期 望 值 才 发 生 这 种 情况 。 在 


划分 子 网 络 的 过 程 当中 ,通过 计算 各 种 划分 情况 的 模块 性 Q 值 ， 


3 


即 


找到 QQ 值 最 大 时 所 对 应 的 相应 子 网 划分 , 那么 这 样 的 子 网 划分 
是 最 佳 或 者 最 接近 最 佳 的 划分 方式 。 
本 文 网 购 衣 服 评语 高 频 词 共 现 网 络 的 8=-0.082 ， 网 络 被 分 
4 个子 网 。 该 网 络 具 有 的 最 大 模块 性 指标 值 为 负 值 ， 远 远 低 
0.3, 说 明 它 所 给 出 的 4 个 子 网 的 划分 实际 上 是 不 明显 的 , 其 
区 结构 不 显著 。 
结束 语 
象 成 网 络 形式 ， 


基于 复杂 网 络 理论 ， 将 网 购 评语 的 关联 
以 网 购 评 语 高 频 词 为 节点 ， 高 频 词 共 现 关 系 为 边 ， 建 立 了 网 


将 是 非常 有 意义 的 工作 。 
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